第 26 卷 第 5 期 工 程 数 学 学 报 Vol. 26 No. 5 
2009 年 10 月 CHINESE JOURNAL OF ENGINEERING MATHEMATICS Oct. 2009 


文章 编号 :1005-3085(2009)05-0827-09 


Markov 动态 决策 过 程 在 耐用 品 购买 中 的 应 用 * 


页 俊秀 
(西安 电子 科技 大 学 理学 院 ， 经 济 管理 学 院 ， 西 安 710071) 


摘 X 通过 建立 一 个 离散 型 Markov 决策 模型 ， 并 在 模型 中 引入 感知 价值 和 感知 价值 系数 ， 本 文 研究 了 
消费 型 耐用 品 购 关 的 多 阶段 最 优 策略 。 当 每 个 产品 阶段 中 有 两 代 不 同 产品 时 ， 消 费 者 最 优 购买 策 
略 存在 ;在 一 定 的 条 件 下 ， 从 某 个 状态 开始 最 优 策略 为 “购买 ”。 最 后 以 一 个 数值 实例 验证 了 这 
些 结论， 并 说 明 给 定 相关 数据 后 可 获得 购买 耐用 品 的 最 优 决 策 ， 这 一 决策 与 消费 者 的 偏好 和 卖方 


的 定价 存在 密切 关系 。 
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1 引言 


不 管 是 消费 型 耐用 品 还 是 工业 型 而 用品， 它们 在 商业 周期 的 产生 和 发 展 中 起 着 重要 作用 ， 
在 国民 生产 总 值 中 占据 较 大 比例 。 因 此 ， 很 多 学 者 都 非常 关注 耐用 品 理论 的 研究 和 发 展 ， 如 文 
ER [1-3] SCHR [4-6] 从 生产 商 的 角度 研究 了 耐用 品 的 定价 问题 。 文 献 也 从 卖方 的 角度 研究 了 
商品 动态 价格 的 数学 模型 ， 并 给 出 动态 价格 最 优 的 条 件 。 本 文 则 从 消费 者 的 立场 研究 耐用 品 的 
最 优 购买 决策 ， 相 关 文献 概述 如 下 。 

Bass 研 究 了 新 消费 品 的 首次 购买 决策 理论 ， 从 创新 和 模仿 行为 的 角度 提供 了 一 种 理性 
行为 ， 并 假设 消费 者 的 首次 购买 决策 与 先前 购买 者 的 数量 有 关 。Coase 认 为 如 果 科 斯 儿 
想 成 立 ， 那 么 只 有 当 耐用 品 价格 等 于 其 边际 费用 的 那个 时 刻 才 会 有 交易 产生 。 尽 管 现实 
生活 中 没有 这 种 极端 情形 ， 但 随 着 产品 生命 周期 的 继续 产品 价格 会 降低 ， 对 于 耐用 品 来 
说 也 是 很 普遍 的 事情 四。 本 文 也 作 了 这 样 的 假设 ， 认 为 随 着 时 间 的 推移 ， 生 产 商会 降低 
旧 产 品 的 价格 。 这 是 一 个 共同 知识 ， 消 费 者 也 知晓 。 而 且 ， 一 般 情 况 下 今天 购买 某 种 耐 
用 品 的 顾客 不 会 明天 再 去 买 同一 型 号 的 产品 ， 因 此 同一 个 生产 商 在 不 同 阶段 上 市 的 产品 
为 蔡 代 品 ， 而 非 互 补品 。 同 时 本 文 在 模型 中 引入 了 消费 者 感知 价值 和 感知 价值 系数 。 对 
此 ，Banerjee fi BandyopadhyayP!, Wathieu'0l 利用 感知 价值 的 概念 分 析 了 消费 者 的 行为 。 文 
献 [1]] 则 从 网 络 消费 者 的 角度 ， 结 合 感知 价值 对 消费 者 的 决策 行为 ， 运 用 结构 方程 模型 方法 进 
行 了 定量 研究 。 研 究 结果 表明 ， 感 知 价值 与 购买 意愿 显著 正 相关 。 

对 于 一 些 消费 者 来 说 ， 尽 管 消费 型 耐用 品 的 贬值 率 很 高 ， 但 购买 新 的 替代 品 可 以 立即 享受 
多 功能 、 高 性 能 和 质量 的 产品 ， 只 是 需要 支付 较 高 的 价格 。 生 产 商 通常 会 迎合 消费 者 的 这 一 心 
理 ， 尽 力 引入 新 产品 ， 赚 取 更 多 利润 ， 如 中 国 的 手机 市 场 ， 就 是 这 种 情形 。 而 另外 一 些 消费 者 
可 能 会 以 低 价 购买 现 有 旧 款 产品 ， 或 寻找 性 价 比 高 的 产品 。 因 此 ， 消 费 者 的 决策 问题 是 什么 时 
间 购 买 产品 自己 会 有 更 高 的 收益 或 效用 。 程 兰 芳 b 根 据 价格 的 实物 期 权 性 研究 了 这 一 问题 ， 
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给 出 购买 产品 关键 时 刻 的 分 析 规 则 。Dhebarll3l xiij Fd 58 AW A 48 A CUBE TRE RRCRS P^ 5 (两 代 产 
品 ) 的 问题 建立 了 两 阶段 模型 ， 假 设 没有 二 手 市 场 。 在 他 的 模型 中 ， 生 产 商 在 第 一 阶段 销售 第 
一 代 产品 ， 在 第 二 个 阶段 销售 第 二 代 产 品 ， 消 费 者 是 理性 的 ， 目 的 是 最 大 化 收益 减 去 价格 的 差 
额 。 而 更 一 般 的 情况 为 消费 者 在 适当 的 时 间 点 上 对 多 阶段 替代 产品 进行 选择 ， 而 消费 理论 的 恰 
当 基 础 就 是 研究 现实 消费 和 未 来 消费 之 问 交 替 关 系 的 跨 时 选择 理论 B9 , 

本 文 则 给 出 两 代 产 品 、 多 阶段 的 耐用 品 购买 决策 模型 。 特 别 适用 于 那些 高 价 的 耐用 消费 
品 ， 如 摄像 机 、 笔 记 本 电脑 和 DVs 等 产品 。 对 于 某 个 消费 者 来 说 ， 他 购买 产品 后 将 永远 退出 市 
场 ， 没 购买 产品 则 进入 下 一 个 阶段 进行 重新 决策 。 为 此 ， 我 们 建立 了 一 个 离散 性 Markov 决 策 
过 程 模型 描述 消费 者 的 购买 过 程 。 消 费 者 对 不 同 代 产 品 的 保留 价 作为 系统 的 状态 ,报酬 函数 由 
两 部 分 组 成 ， 一 部 分 为 产品 的 物理 价值 ， 另 一 部 分 为 消费 者 的 感知 价值 ， 目 标 函数 为 最 大 化 消 
费 者 在 耐用 品 购买 过 程 中 的 总 体 收益 ， 目 的 是 要 寻找 消费 者 的 最 优 购买 策略 。 实 例 分 析 了 有 具有 
两 代 产 品 多 个 阶段 的 情况 ， 说 明 消费 者 的 最 优 购买 策略 除了 与 厂家 定价 、 保 留 价格 和 感知 价值 
有 关外 ， 与 消费 者 的 偏好 也 存在 密切 关系 ， 即 消费 者 的 类 型 在 决策 中 起 很 重要 的 作用 。 本 文 为 
首次 应 用 Markov 决策 过 程 模型 对 耐用 品 消费 者 的 购买 决策 进行 建 模 分 析 ， 希 望 能 给 消费 者 和 
生产 企业 以 决策 支持 。 


2 ”模型 建立 


首先 给 出 一 个 合理 的 假设 : 消费 者 最 多 购买 一 件 耐用 产品 ， 这 是 由 于 产品 的 耐用 性 和 高 价 
性 。 另 一 个 假设 为 消费 者 不 进入 二 手 市 场 多 ， 这 是 为 了 集中 精力 分 析 相 继 上 市 产品 对 消费 者 决 
策 的 影响 。 同 时 ， 模 型 中 的 状态 转移 概率 是 固定 的 ， 文 中 所 用 其 它 记 号 解释 如 下 。 

n: 文中 称 其 为 产品 阶段 ， 可 以 理解 为 新 旧 产 品 出 现 的 间隔 时 间 。 如 果 每 个 产品 阶段 中 有 多 
代 产 品 ， 比 如 m 代 不 同 的 产品 ， 消 费 者 在 每 个 产品 阶段 必须 进行 m 次 购买 决策 ， 即 消费 者 共 
需要 决策 mm 次 ， 我 们 将 其 称 为 购买 阶段 ， 可 知 总 共有 mm 个 购买 阶段 ; 

s: 消费 者 对 某 代 产品 给 出 的 保留 价 。 产 品 不 同 ， 保 留 价 也 不 同 。3 = (51,52, ,snm} 为 
有 限 的 状态 空间 ， 其 中 snm = 0 表示 消费 者 未 购买 任何 产品 而 离开 市 场 ; 

T(s|s): 状态 转移 概率 ，s，s E Si 

als): 消费 者 在 状态 s 处 选择 的 行动 ， 从 集合 {B,W} 中 取 值 。B (Buy it) 表示 购买 产品 并 
退出 市 场 ，W (Wait) 表示 继续 留 在 市 场 中 等 待 购 买 合适 自己 的 产品 ; 

r(s,B): 消费 者 在 状态 s 处 购买 产品 时 获得 的 当 阶 段 总 折扣 期 望 回 报 。 实 际 上 ，r(s, B) 同 
时 是 产品 价格 、 性 能 、 质 量 、 消 费 者 类 型 (风险 中 性 、 偏 好 和 厌恶 ) 和 消费 者 虚荣 程度 等 的 函 
数 。 为 方便 书写 表示 为 r(s, B)， 另 一 个 原因 趾 在 文中 这 些 因素 多 数 被 假设 为 常数 。r(s,W) 为 
消费 者 没有 购买 产品 时 ， 在 当前 阶段 中 累计 的 期 望 回 报 ; 

Up. (5, B): 消费 者 购买 产品 获得 的 实际 物质 收益 ，vp.o.(s,B) 为 感知 收益 ，vpi.(s,W) 为 感 
HIRA: a 为 感知 系数 ; 

A: 折扣 率 ，0 < 入 <1; 

V(s): 消费 者 在 状态 s 处 获得 的 最 大 总 折扣 期 望 回报 。 求 解 如 下 方程 可 得 到 问题 的 最 优 解 


V(s) = max Iris. B), r(s,W) +À 5Y T(s'|s)V(s)), se S, (1) 
s'es 
其 中 


r(s, B) = (1 — o)up.,.(s, B) + avg s (s, B), r(s,W) = s? + vt (s,W). (2) 
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在 当前 社会 下 ， 对 于 耐用 品 来 说 ， 特 别 是 那些 耐用 电器 产品 ， 如 手机 、 笔 记 本 电脑 和 汽 
车 等 ， 消 费 者 购买 某 款 产 品 的 动机 有 两 部 分 组 成 ， 主 要 的 一 部 分 是 因为 耐用 品 本 身 有 实用 
价值 ， 另 一 部 分 则 来 自 于 消费 者 的 虚荣 心 ， 如 攀比 、 赶 时 莒 等 心理 。 也 就 是 说 消费 者 购买 
产品 可 以 得 到 物质 上 的 和 精神 上 的 双重 收益 。 物 质 上 的 用 wv.w.(s, B)，st 来 反映 ， 精 神 上 的 
H vp. (s, B)，vpi.(s,W) 来 反映 。 为 了 体现 消费 者 的 上 述 双 重 收益 ， 我 们 引入 参数 “感知 系 
数 a”， 用 来 反映 感知 收益 在 消费 者 总 收益 中 所 占 的 比例 ， 因 此 a 能 反应 消费 者 的 类 型 。 本 
文 确定 此 参数 的 方法 与 文献 [9,10] 不 同 ， 可 以 很 好 的 体现 消费 者 的 主观 意志 在 购买 决策 中 的 重 
要 性 。 反 之 ， 如 果 消 费 者 没有 购买 产品 ， 他 会 获得 感知 损失 。 除 此 之 外 ， 因 为 没有 购买 产品 
而 节省 下 来 的 资金 算 作 不 购买 产品 的 实际 收益 ， 用 厂家 标价 s? KEW. HP, upg, vpi 可 通 
过 Von Neumann 和 Morgenstern 的 心理 测验 法 获得 ， 也 可 应 用 本 文 给 出 的 方法 确定 ; 需要 解 
释 的 是 ， 感 知 收益 和 感知 损失 相对 于 产品 的 实际 功能 价值 来 说 小 得 多 ， 但 它们 会 影响 消费 者 的 
购买 决策 。 感 知 系数 a 可 通过 Savage (1954) 提 出 的 主观 概率 法 Ht 引 来 确定 ，a 随 着 购买 阶段 的 
变化 而 变化 。 


3 ”多 阶段 最 优 购 买 决 策 


我 们 认为 消费 者 对 某 代 产 品 的 保留 价 是 固定 的 ， 但 产品 不 同 保留 价 不 同 。 除 此 之 外 ， 还 有 
如 下 重要 假设 : 

假设 1 耐用 品 型 号 越 新 ， 消 费 者 给 出 的 保留 价 越 高 。 

假设 2 产品 性 价 比 和 质量 降低 时 ， 消 费 者 购买 折扣 收益 7(s, B) 不 会 增加 。 

假设 3 消费 者 不 购买 产品 时 的 vpi.(s, W) 478 s OT ER. 

这 些 假设 都 是 基本 符合 现实 世界 的 实际 情况 ， 很 容易 被 理解 ， 所 以 不 给 出 进一步 的 说 明 。 
现在 重点 分 析 m = 2 的 情形 ， 也 就 是 说 在 每 个 产品 阶段 中 有 两 代 不 同 产品 可 供 消费 者 决策 。 产 
品 推 出 的 规则 为 ， 当 新 一 代 产品 上 市 时 ， 它 的 上 上 一 代 产 品 将 退出 市 场 ， 如 图 1 所 示 。 


市 场 中 的 产品 


Bl 产品 推出 过 程 一 每 个 阶段 中 有 两 代 产品 


在 图 1 中， 产品 k(k = 2,3,… ,n) 在 阶段 k 一 1 开始 上 市 ， 在 下 一 个 阶段 末 退 出 市 场 ， 第 一 
个 阶段 中 有 两 代 产 品 ， 产 品 1 为 早期 遗留 产品 ， 在 下 一 个 阶段 退出 市 场 ， 最 后 一 个 阶段 中 仅 
有 一 个 产品 ， 来 自 上 一 个 阶段 出 现 的 新 产品 。 又 因为 不 同 阶 段 中 同一 种 型 号 产品 报价 不 同 ， 
即 对 于 同一 型 号 产品 ， 消 费 者 可 能 在 不 同 购 买 期 进行 选择 ， 因 此 包括 吸收 态 共 有 2n 个 状态 ; 
很 容易 写 出 公式 (3) 所 示 的 状态 转移 矩阵， 其 中 的 sz 为 吸收 态 。 比 如 ， 在 第 一 个 产品 阶段 中 
消费 者 需要 决策 两 次 ， 首 先决 定 是 否 购买 产品 1， 如 果 不 买 的 话 ， 可 以 转移 到 后 面 的 各 个 购买 
期 。 如 第 二 购买 期 的 产品 2、 第 三 购买 期 的 产品 2 等 等 ， 这 两 个 产品 虽然 型 号 相同 但 可 能 价格 
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不 同 。 又 因为 大 多 被 调查 的 消费 者 很 难说 清楚 从 某 一 确定 状态 转向 其 它 状 态 的 概率 ， 所 以 此 处 
假设 这 个 概率 是 相同 的 ， 且 为 平均 数 ， 如 公式 (3) Pos. 


81 $2 83 t 82n-1 Son 
4 L Ru d. L 
51 2n 2n 2n 2n 2n 
H L EE PE PU 
$2 2n 2n 2n 2n 2 
1 1 1 1 
$83 2n-i m-i Zn-i  Zn-i 
T- (3) 
1 1 
$2n-1 0 0 0 3 3 
82n 0 0 0 0 1 


现在 ， 要 求解 的 问题 是 
V(s) = max la — a)vy.v.(s, B) + &vp.g. (s, B), s^ 
up. (5, W) + À 5 T(s'ls)V (^); seS- (51, 824," ** (S20 T (4) 
SES 


假设 消费 者 购买 产品 获得 的 物理 价值 可 由 实际 的 产品 出 售 价格 s? 来 衡量 ， 央 为 这 个 价格 是 
消费 者 认同 的 产品 价值 。 其 中 ，s2 表示 状态 s 处 购买 产品 的 实际 价格 。 而 在 某 个 阶段 中 某 个 状 
态 s 下 购买 产品 的 感知 价值 和 未 购买 到 产品 的 损失 价值 由 如 下 表达 式 确定 


ups (5B) - Bins, voi(s,W)=7Ins, s>1. (5) 
EP s > 工 可 以 通过 变化 其 单位 得 以 保证 。 此 时 ， 优 化 问题 可 以 写成 
max (一 an) 强直 akBinsk， sf +ylnsy 
Vas H D maV), k=3,4,.… ,2n—1, (6) 


max { (1 — ox)s® + ax In sy, sb --ylnsy 4- A Y iV(s)), k —1,2. 
s'es 


边界 条 件 为 V(szn) = 0。 其 中 6B > 0 说 明 消费 者 购买 产品 后 的 感知 价值 会 随 着 保留 价 的 增加 而 
增加 ， 但 增加 的 幅度 是 由 对 数 函 数 来 决定 的 。 同 理 7 < 0 表示 消费 者 在 给 定 阶段 内 没有 购买 到 
产品 的 整体 价值 会 随 着 保留 价 的 增加 而 降低 ， 其 幅度 是 由 对 数 函 数 来 决定 的 。 对 于 某 个 消费 者 
米 说 ，B 和 的 值 相对 固定 。 

由 假设 1 镶 |， 消 费 者 对 相继 出 现 的 新 产品 的 保留 价 是 越 来 越 高 的 ， 总 会 有 一 个 时 刻 会 使 消 
费 者 等 待 价值 的 降低 会 高 于 购买 产品 价值 的 增加 。 所 以 ， 我 们 有 如 下 定理 。 

定理 1 如 果 消 费 者 从 一 个 购买 期 转移 到 其 它 购买 期 的 转移 概率 相同 ， 且 感知 价值 和 损失 价 
值 都 是 保留 价 的 对 数 函 数 ， 在 每 个 产品 阶段 有 两 代 产品 的 情形 下 ， 若 如 下 条 件 成 立 ， 


D b b 
(1 S Ok41)SL 41 t Qk+1B In 5x44 二 5k 一 Sk+1 


1- 
(1 — o&)st + o B ln sk 
IEEE I 5-55 (7) 
FOU ERE. m41- k) "PTSD Sth CUTE 
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则 存在 某 个 状态 ss， 使 
a* (31) = a*(s2) —--- = a* (s11) = W, 


a" (si) = a* (s141) = `+- = a* (S2n—1) = B. 


简单 的 证 明 思 路 为 : 如 果 能 证 明 对 于 任 一 1， 当 a*(s1) =B, Wa*(s1) = B， 则 定理 可 以 
得 证 ， 所 以 应 用 反正 法 假设 存在 某 个 1， 当 a*(s1) = B 时 ，a*(siy1) = WW。 如 果 定 理 中 条 件 成 
立 ， 则 推出 

V(si) < (1 — ox)s? + akp ln si41, 
BN V(si) <r(s1,B) 这 一 结论 与 假设 矛盾 。 从 而 可 得 到 在 1 处 的 最 优 决策 为 如 时 ，1 十 1 处 的 最 优 
pe 

证 明 用 反 证 法 。 

假设 存在 某 个 I， 当 a*(s1) 2 BEI, a*(siq1) = W。 当 1 > 3 时 ， 则 有 


1 7 b 
(一 ab)s - abs > yns AM WINE V(s) 4 sj 


s'ES 
1 
eA 十 2 二 ;2. Y(s)) +s}, ; (8) 
s'es 
1 
(1— ot41)s],4 + aib ln sia < yin sipi A 5 no ee em +s 
s'es 
1 
汉人 你 二 3 vi) sae (9) 
s'es j 
所 以 
(1 — oa)s? + o481n s; — (1 — o141)5p,4 — 1b In sii 
1 
€ i V(s' - 
> ylas vla Arm s pn) (s) +s? — sb, 
1 
E V = 
Wr 2n+2— dise E 
= 入 (二 一 VV) + 时 一 时 
A 2m +211) & m+2 
1 
e V ) 十 = 
al 2 十 2 一 r3) 3 V) s? = staa 
1 
ues c cy 10 
SA a GD) 十 各 一 st 29 
即 


(1— ou)s? + ou In si — (1 — 0441)57,4 一 ai0inst+l 一 (s? 一 5? 1) 


1 1 
A 
doi ec i) 
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其 中 从 公式 (10) 第 一 步 到 第 二 步 是 因为 7 < 0、in si 单调 不 减 ， 所 以 7ins 一 yin siri 20: 从 
公式 (10) 第 三 步 到 第 四 步 是 因为 每 个 购买 期 中 的 最 大 收益 不 会 为 负 值 。 
如 果 


(1 — Qu)s? + aoB lns 


Sn a 
il 


(1 — oj)s? + ouf In s; — (1 — o0141)57,, — 1b M si41 — (s? — 5b) 


1 1 
TRU NEN RENE NR. A B 
= Mom i ^ 


WE V (si) <7(s1, B)， 这 与 假设 矛盾 。 假 设 错误 ， 定 理 1 成 立 。 当 1 = 1 2 时 可 同 理 证 明 。 


4 ”模型 应 用 


本 节 应 用 某 个 消费 者 准备 购买 某 种 品牌 手机 的 数据 ， 讨 论 第 3 节 中 模型 的 求解 情况 。 假 设 
以 一 个 月 为 一 代 产品 推出 的 阶段 ， 即 产品 阶段 ， 表 1 为 连续 三 个 月 的 调查 数据 。 也 就 是 说 ， 消 
费 者 每 个 月 都 需要 作出 2 次 是 否 购 买 产品 的 决策 ， 三 个 月 后 退出 市 场 。 其 中 ，Q1 表示 对 消费 
者 1 的 调查 数据 ，Q2 表示 对 消费 者 2 的 调查 数据 ， 当 然 可 以 对 任意 一 个 消费 者 的 数据 进行 分 
Er. Vi, Vo, 码 表 示 出 现 三 代 产品 ， 在 第 一 个 阶段 中 有 态 , Vo 两 代 产 品 存在 ; 在 第 -个 阶段 中 
A Vo, Va 两 代 产品 存在 ， 已 经 退出 市 场 ， 假设 第 三 个 月 中 只 有 产品 WW 存在。 标价 仪 是 一 个 
参考 价格 ， 实 际 购买 价 会 上 下 波动 ， 因 此 保留 价 低 于 这 个 标价 并 不 意味 着 消费 者 个 购买 此 产 
品 。 表 中 的 感知 系数 反应 消费 者 的 类 型 ， 这 一 点 可 从 很 多 中 国手 机 消费 者 的 行为 看 出 ， 他 们 除 
了 注重 手机 的 实际 功能 外 ， 更 多 地 将 手机 看 作 一 种 装饰 品 ， 哆 新 换代 频率 令 发 达 国 家 的 人 都 呀 


nm 


表 1: 对 不 同 耐用 品 消费 者 的 调查 数据 (价格 单位 : 元 ) 


消费 者 保留 价格 sk | 2028 | 3020 20 | 3030 
感知 系数 as 0.3 0.08 
消费 者 保留 价格 sk | 1900 | 2300 | 2000 | 2450 
感知 系数 a 0.16 | 0.10 0.18 


其 中 感知 系数 的 取 值 是 根据 Savage 提 出 的 主观 概率 法 来 确定 的 。 首 先 ， 设 计 问 题 和 与 问题 相 
关 的 两 个 事态 体 ， 包 括 消费 者 所 认同 的 、 有 关 感 知 收益 在 消费 者 总 收益 中 所 占 的 比例 (感知 系 
数 ) 的 诛 事 态 体 和 用 来 逐步 度量 消费 者 对 问题 的 真实 回答 的 参考 事态 体 。 然 后 由 消费 者 在 两 个 


事态 体 问 选择 辨 优 ， 根 据 消费 者 的 回答 ， 逐 步 修改 参考 事态 体 ， 直 到 得 到 与 感知 价值 等 同 的 相 
信 程 度 ， 即 认为 这 样 得 到 的 主观 概率 就 是 我 们 的 感知 价值 。 

4.1 分 析 求 解 

如 下 应 用 对 消费 者 1 的 调查 数据 ， 从 状态 、 行 动 、 转 移 概 率 、 报 酬 函数 和 目标 函数 几 个 方 
面 分 析 消 费 者 进行 耐用 品 购买 的 Markov 决策 过 程 。 

e 状态 : 由 前 面 对 阶 段 的 解释 和 对 表 1 的 分 析 可 知 ， 此 例 中 有 6 个 状态 ， 其 中 se 是 一 个 吸收 
态 ; 
e 行动 : 消费 者 可 从 {B,W} 中 选择 行动 ; 
e 转移 矩阵 ， 如 公式 (11) 所 示 ; 
o 收益 函数 :如 第 3 节 中 描述 的 那样 ， 可 同时 体现 消费 者 的 实际 收益 和 感知 收益 ，sk, sb, a 
的 具体 数值 见 表 1; Pk = 1,… ,5 的 值 分 别 为 2040、3056、3030、3080、3035 元 ， 假 设 此 消 
费 者 的 8 = 86, y = 316; 

e 目标 函数 : 最 大 化 消费 者 总 的 折扣 期 望 价值 。 在 本 例 中 ， 由 于 每 个 阶段 的 持续 时 间 较 
短 ， 所 以 假设 折扣 系数 入 = 1。 


$1 $2 $3 $4 $5 $6 
s; [1/6 1/6 1/6 1/6 1/6 1/6 
s2 | 1/6 1/6 1/6 1/6 1/6 1/6 
83 0 1/5 1/5 1/5 1/5 1/5 


0 
s| 0 0 0 1/3 13 1/3 
0 


42 计算 过 程 与 结果 
当 n = 6 时 , V(sg) — 0. 
当 n = 5 时 有 
V(ss) = max [a — 0.07)3035 + 0.07 x 86 x ln 3030, 


3100 — 316 In 3030 + 3(V(s4) + V(ss) + V(ss))) 


1 
max {2870.81, 566.84 + = (V (s4) + V(ss))} 


il 


2870.81, ar(s5) = B, (12) 
= | 566.84-- 1(V(sa) c V(ss)), a'(ss) =W E V(s4) > 3956.974. 
也 就 是 说 ， 当 a*(ss) -WHBp, 8 
V (ss) = 566.84 + 3(V(s4) + V(s5)) > 2870.81, 


可 推出 在 这 种 情况 下 ， 则 V(s4) 应 该 大 于 3956.974。 


ed 
当 4n = 4 时 ， 同 理 可 求 得 


V(s4) = max{2888.75, 606.84 十 F(s) +V (s4) + V(ss))) 


2888.75, a*(s4) = B, 
606.84 + 4 (V (s3) + V (s4) + V(s5)), a*(s4) = W B. V(s3) > 3368.074. 


由 上 述 数 据 可 知 ， 如 果 a*(s4) = B， 则 一 定 有 a*(ss) = B， 因 为 此 时 
V (sa) = 2888.75 < 3956.974. 


通过 进一步 计算 V(s3), V(s2), V(s1) 的 值 ， 可 确定 P= {W,B,B,B,B)} 为 此 消费 者 的 最 优 策 
略 。 此 结论 也 可 通过 定理 1 进行 验证 。 这 些 结论 都 是 基于 消费 者 给 出 的 实际 数据 而 得 出 ， 因 此 
本 文 提供 的 方法 可 充分 体现 消费 者 决策 的 主观 能 动 性 ， 满 足 消费 者 主客 观 上 对 物品 的 需求 。 我 
们 计算 了 部 分 其 它 问 卷 的 数据 ， 得 到 的 最 优 策略 当然 都 不 太 相 同 。 但 这 些 结果 都 反应 了 一 个 事 
实 ， 最 优 策略 除了 与 商家 的 定价 、 消 费 者 给 出 的 保留 价 、 感 知 价值 有 关外 ， 与 体现 消费 者 类 型 
的 a 也 密切 相关 。 如 果 企业 能 掌握 了 大 量 的 消费 者 类 型 和 购买 决策 的 信息 ， 那 么 就 能 殉 加 准确 
地 预测 需求 ， 从 而 准确 制定 生产 、 销 售 等 决策 ， 故 此 项 研究 不 仅 有 助 于 消费 者 的 决策 ， 同 时 可 
帮助 企业 进行 决策 。 


5 结论 


本 文 用 Markov 决策 过 程 模型 描述 了 消费 者 购买 耐用 品 的 动态 过 程 。 为 了 更 好 地 体现 消费 者 
决策 的 主观 能 动 性 ， 对 传统 的 Markov 决策 过 程 模型 作 了 适当 改动 。 在 模型 中 引入 了 感知 系数 
这 个 新 概念 、 感 知 收益 和 感知 损失 。 在 多 阶段 情况 下 ， 重 点 给 出 了 每 个 阶段 中 有 两 代 产 品 时 ， 
消费 首 的 最 优 购买 策略 。 在 满足 给 定 条 件 的 前 担 下 ， 消 费 者 的 最 优 策 略为 : 存在 一 个 最 优 购买 
时 刻 st:， 从 这 个 时 刻 开 始 ， 只 要 消费 者 还 停留 在 市 场 中 ， 他 的 最 优 决 策 是 “购买 ”。 文 章 还 用 
一 个 实例 详细 给 出 求解 最 优 策 略 的 过 程 。 需 要 进一步 探讨 的 问题 是 ， 如 果 每 个 阶段 中 有 多 村 两 
代 的 产品 出 现 ， 如 何 求解 消费 者 的 最 优 购买 策略 ;还 有 物理 价值 和 感知 价值 的 不 同 度量 方法 的 
比较 研究 等 问题 。 
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Markov Dynamic Decision Model for Purchase 
Decision of Durable Goods 


JIA Jun-xiu 


(School of Science and School of Economics and Management, Xidian University, Xi'an 710071) 


Abstract: A discrete time Markov decision process model was built, introduced in the model are the 
concepts of perceived value and perceived coefficient. The optimal policies to purchase consumptive 
durable goods were studied under multi-stages. When there are two generations in each product stage, 
the consumer's optimal purchasing policy exists. It is proved that exists some state, from which the 
consumer's optimal policy is ^to buy the product? under some conditions. À numerical example show 
the reliability of the method. Given related data, the optimal purchase policies can be obtained, which 
have closed relation with the consumer's preference and the pricing of the bargainor. 

Keywords: Markov decision process; durable goods; optimal purchase decision; perceived value 


